? 信息時代,檔案數(shù)字化已成為今后一段時期檔案工作的重中之重,紙質(zhì)檔案掃描工作在各地如火如荼地進(jìn)行。然而,掃描所產(chǎn)生的電子檔案實(shí)際上只是以圖像形式存在的文件,而非真正意義上的文本文件。也就是說,計(jì)算機(jī)只認(rèn)識檔案的外表,卻不認(rèn)識其內(nèi)在文字。用戶通過計(jì)算機(jī)只能看到檔案的原貌,卻不能對其中的內(nèi)容進(jìn)行引用、檢索等操作,這無疑對將來的電子檔案利用工作造成了很大的不便??紤]到檔案用戶的利用需求,若要得到真正文本形態(tài)的電子檔案,使檔案數(shù)字化工作更加有效、更加徹底,便要應(yīng)用到OCR技術(shù)。
?一、OCR概況
所謂OCR(Optical Character Recognition)即光學(xué)字符識別。通俗點(diǎn)說,就是讓計(jì)算機(jī)
“認(rèn)字”。其原理是通過專門的OCR軟件將含有文字的圖像按字切割成可獨(dú)立識別的單元,然后運(yùn)用各種算法分析每個圖像單元中文字的形態(tài)特征。通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù),判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼并按通用格式輸出保存在文本文件中。
OCR的工作流程為影像輸入、影像前處理、文字特征抽取、比對識別、人工校正、最后將識別結(jié)果輸出保存。①雖然一張圖像真正用于軟件識別的時間不到一秒,但前期和后的加工處理不可小視。尤其是前兩個環(huán)節(jié)的操作,往往決定了OCR軟件的識別率,乃至整個OCR工作的效率。而后期人工校正環(huán)節(jié),則是保證OCR工作質(zhì)量的最直接環(huán)節(jié)。
二、OCR技術(shù)的優(yōu)勢及其在檔案數(shù)字化過程中的應(yīng)用
OCR技術(shù)相對于傳統(tǒng)的手工錄入方式來說,具有強(qiáng)大的優(yōu)勢。首先,OCR文字識別的速度遠(yuǎn)快于手工錄入。根據(jù)國際通行的打字速度評級標(biāo)準(zhǔn),即使是專業(yè)人員,每分鐘也僅能輸入150~240個字。而采用OCR技術(shù),即使算上前后期的處理環(huán)節(jié)所花時間,其速度也絕對比前者快好多倍。其次,OCR文字識別的質(zhì)量遠(yuǎn)高于手工錄入。雖然由于各種因素影響,OCR技術(shù)的識別率很難達(dá)到100%,但比起大批量手工錄入,其出錯率要小得多。最后,OCR還節(jié)省了大量人力資源,優(yōu)化了資源配置,使人員分配于更加有意義的工作。
對于檔案數(shù)字化工作來說,OCR技術(shù)除了具有以上幾個普遍的優(yōu)勢之外,還有其獨(dú)特的用武之地。
1.創(chuàng)新著錄標(biāo)引方式
創(chuàng)建檔案目錄數(shù)據(jù)庫是一項(xiàng)較基礎(chǔ)的檔案數(shù)字化工作,目前大多數(shù)檔案館都在進(jìn)行這項(xiàng)工作很多檔案館已建成較為完備的目錄庫。然而各檔案部門的檔案條目基本都是通過手工錄入的,既費(fèi)時又費(fèi)力,還很容易出錯。尤其是一些檔案、標(biāo)題很長,又是“印發(fā)”又是“轉(zhuǎn)發(fā)”一個題名就占了好幾行,要輸入老半天。
OCR技術(shù)提供了一種新的著錄方式,使檔案條目通過計(jì)算機(jī)錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項(xiàng):如題名、文號、責(zé)任者等復(fù)制粘貼到目錄數(shù)據(jù)庫的相應(yīng)字段中去。
但這么做必須先掃描檔案全文、OCR然后再輸條目,顛覆了檔案數(shù)字化工作的一般工作流程。因此可行性并不高。還有一種方法是先將檔案卷內(nèi)目錄掃描、OCR處理,再復(fù)制粘貼條目或通過特定的程序自動采集條目信息
但由于很多卷內(nèi)目錄是手寫的OCR無法識別,只得依靠手工錄入。相信隨著未來技術(shù)的發(fā)展,OCR在這方面的應(yīng)用一定能夠有所突破。
此外,系統(tǒng)還可以對OCR后的檔案全文進(jìn)行詞頻統(tǒng)計(jì)、內(nèi)容分析從而自動提取關(guān)鍵詞、主題詞等標(biāo)識符一定程度上實(shí)現(xiàn)了檔案內(nèi)容的自動標(biāo)引。
2.實(shí)現(xiàn)真正的全文檢索
檔案工作中所說的全文檢索實(shí)際包括兩種類型:一種是僅對檔案目錄數(shù)據(jù)庫進(jìn)行檢索,找到相關(guān)條目后再打開相應(yīng)的檔案全文。目前檔案館大多采用這種檢索方式。且尚有很多檔案沒有電子全文。另一種是真正的全文檢索,即直接對檔案全文庫進(jìn)行檢索,而且是對檔案全文進(jìn)行逐字檢索。很明顯,后一種檢索方式的查全率比前者要高出很多。使用戶能從浩如煙海的檔案館藏中找到更多所需信息,更深入地開發(fā)利用檔案信息資源。而要實(shí)現(xiàn)真正的全文檢索自然離不開OCR技術(shù),因?yàn)橹挥袑呙鑸D像中的文字變成文本格式,才有可能對其中的文字進(jìn)行逐字檢索。
3.支持雙層PDF技術(shù)
所謂雙層PDF,就是一個PDF文件中的每一頁都包含兩層,上層是掃描所得到原始圖,下層是OCR識別的文字結(jié)果。這種技術(shù)在數(shù)字圖書館領(lǐng)域已得到廣泛應(yīng)用。我們在CNKI等數(shù)據(jù)庫中檢索到的PDF格式的電子文獻(xiàn)大多采用了雙層PDF技術(shù)。
由于采用雙層PDF技術(shù)既能較好地保證檔案的原真性,在用戶需要時又能對檔案中的文字進(jìn)行選擇、復(fù)制、搜索等處理。因此必將在今后的檔案數(shù)字化工作中越來越得到青睞。而這一技術(shù)的運(yùn)用必須首先以OCR技術(shù)為支撐。
4.拓寬檔案用戶利用面
以往的檔案用戶大多是基于檔案的憑證價值而對其加以利用如政府查閱某份文件、居民查閱房產(chǎn)證、結(jié)婚證、學(xué)籍卡等這些利用需求對檔案的原真性要求較高。很多情況下還是需要紙質(zhì)檔案才能發(fā)揮作用。但檔案用戶的利用面絕不應(yīng)該僅限于此,檔案除了擁有憑證價值還與圖書、情報(bào)一樣具有情報(bào)價值、參考價值。如利用檔案進(jìn)行學(xué)術(shù)研究時,用戶就更加注重檔案的知識性、信息性但如果檔案是紙質(zhì)的要利用其中的內(nèi)容就必須親自去檔案館。通過印刷或手工摘錄所需信息,非常不便以至于有些用戶轉(zhuǎn)而通過網(wǎng)站或數(shù)字圖書館查閱所需信息。
將紙質(zhì)檔案數(shù)字化并采用OCR識別,能夠使檔案信息資源實(shí)現(xiàn)全文檢索、網(wǎng)絡(luò)傳輸、方便用戶異地檢索、復(fù)制引用。從而深化用戶對檔案內(nèi)容的查詢與利用,拓寬其利用面。使檔案也能像圖書、情報(bào)一樣成為人們?nèi)粘I钪蝎@取信息、利用信息、增加學(xué)識的手段使檔案多方面地服務(wù)于公眾。
三、提高檔案數(shù)字化過程中的OCR識別率OCR識別率是整個OCR工作的中心問題。有專家認(rèn)為,OCR識別率低于90%,采用OCR技術(shù)便毫無意義因?yàn)楹笃谛枰M(jìn)行大量的人工校正工作,抵消了OCR所帶來的效率。
對于檔案數(shù)字化這樣浩大的工程來說,提高OCR識別率意味著成倍減少花在OCR工作上的人力物力和時間精力。從而提高整個檔案數(shù)字化工作的效率極大地降低檔案數(shù)字化的成本。